スライドなどの資料をどうやってScrapboxにおいておくかについてちょっと考えていたんだけど、Gyazo APIを使って大量にアップロードすれば良いのではという結論になりそう
from 2023/12/11
スライドなどの資料をどうやってScrapboxにおいておくかについてちょっと考えていたんだけど、Gyazo APIを使って大量にアップロードすれば良いのではという結論になりそうGorira Tatsu.icon
どうですかね
ものによるtakker.icon
自分は以下ののどちらかを使うことがほとんど
0. 必要なことだけスクボにメモする
読み込む必要なさそうなやつはこれ
1. 手動作成
Ctrl+A Ctrl+Vで文字だけコピペして貼り付ける
複数ページに話のまとまりごとに分けて貼り付けることが多い
ページ構造は/takker/Scrapbox書籍のformat@0.2.0と同構造にしてる
手動で前後ページへのリンクを貼ってる
このあたりは個人の好みによる
スライド内の画像をコピーして順次手動で貼り付ける
複数の図形で描かれたものはgyazoる
pdf2svgで必要な図表を無劣化で取り出して調整してたこともあるが、時間がかかる
2. 1枚ずつgyazoって、その画像とocrを貼り付ける
Gyazo APIを使って大量にアップロードに該当
具体的には/takker/Scrapbox書籍を作るUserScript@0.2.0を使う
井戸端に使用ログあり
書籍のページ数/スライド資料の枚数が膨大な場合はこちらを使う
scrapbox書籍を作る場合はもっぱらこれ
これnishio.icon
/nishio/PDFからScrapboxへ
実装はこれ https://github.com/nishio/from_pdf
private projectにつっこんでて今300pages
https://gyazo.com/e2f58be75e87cfe81663d59bead122d5
一つのページにすべてのスライドを貼り付けるスタイルだtakker.icon
# Due to the Scrapbox accepts only 10000 lines per page, we need to split the pages.nishio.icon
あ、分割してたか。失敬takker.icon
とりあえずこれ使うのがいいと思うtakker.icon
作業量が一番すくない
マージするより切り出す方が楽なので、大きめの粒度にするのがマシ
1ページ1スライドにするとひどい目にあう……
これやって失敗してやめた基素.icon
ひどいものを発見した(作って忘れてた) /nishio-a2nishio.icon
ただし、行数が多すぎるとページを開けなくなるので、長い文書の場合はどこかで分割する必要が生じる
https://github.com/nishio/from_pdf は9000行を越えると分割がかかる
手動で話題ごとに事前に分割する事もできるが、非常に時間がかかる (1contentあたり30分~1時間)
takker.iconはどうしても分割して取り込みたかったので、/takker/Scrapbox書籍を作るUserScript@0.2.0を作った
takker/Scrapbox書籍を作るUserScript@0.2.0を使ってみる#640eb0ff774b1700006ac4a4に詳しい話がある
話題ごとに分割、AIにさせたいnishio.icon
割と作る気ある、時間がないw
チャットに対してはそれをやる研究がある
/nishio/MemoChat: Tuning LLMs to Use Memos for Consistent Long-Range Open-Domain Conversation#64e8f735aff09e0000c0fa3f
スライドであれば書籍であれ、話題のかたまりごとに分割させる処理ができればいい?takker.icon
話題のかたまりが曖昧だ
例えば脚注を別の塊に切り出したり、段落ごとに切り出されても困る
ある程度のスケールで分割してほしい
章構成などの入れ子構造も再現できるか?
これのOCRなし版yosider.icon
OCRありのほうが
検索できて良さそう
整形しないと見づらそう
アップロードするやつ
https://github.com/yosider/gyazo-pdf
(脱線)一つのページにすべてのスライドを貼り付けるスタイルというリンクから、以前も似たような話題を書いていたことを思い出すtakker.icon
同じ説明や概念を共通化させて切り出したい
というかそもそも、GyazoとScrapboxの棲み分けがよくわからない、Gyazoで撮った資料は大体Scrapboxにも貼ることがあったりなかったり
gyazoは実質画像置き場takker.icon
scrapboxに貼り付ける余裕がなくても、gyazoれはとりあえず全文検索できる安心感を得られる
PDFをJPGに変換。PDFから画像を抽出
jpegに変換して全選択→ドラッグ&ドロップしてるdokudami.icon